Constitutional AI

https://scrapbox.io/files/669de7eed1c65a001c824c2e.png

わかりやすくいうと

Constitutional AI（憲法AI）は、Anthropic社が開発したAIトレーニング手法

危険な返答をしないようにするAIへのトレーニングを、AI自体にやらせちゃう手法

従来、人間がフィードバック(RLHF)をしていたが、ものすごく工数がかかっていた

それを、人ではなく、AIにやらせちゃうことで、コストも時間も短縮できる

有用で、無害で、誠実であることを保証する倫理原則を「憲法」として作る

その憲法を遵守するように、AIモデルに強化学習させる。

2023年7月にリリースされたClaude 2.0の開発からは、このアプローチが取り入れられている。